联合学习的目的是从多个分散设备(即客户)培训全球模型,而无需交换其私人本地数据。关键挑战是处理非i.i.d。 (独立分布的)数据,这些数据可能引起其本地功能的差异。我们介绍了超球联邦学习(球形)框架,以解决非i.i.d。通过限制学习数据点的学习表示,以在客户共享的单位超孔上。具体而言,所有客户都通过最大程度地减少固定分类器的损失来学习其本地表示,其权重跨度跨越了单位。在联合培训改善了全球模型后,通过最大程度地减少平方平方损失,通过封闭形式的解决方案进一步校准了该分类器。我们表明,可以有效地计算校准解决方案,而无需直接访问本地数据。广泛的实验表明,我们的球形方法能够通过相当大的利润率(在具有挑战性的数据集中达到6%)来提高多个现有联合学习算法的准确性,并具有增强的计算和跨数据集和模型架构的通信效率。
translated by 谷歌翻译
图形神经网络(GNN)由于其独特的能力扩展了机器学习(ML)方法,因此引起了极大的关注,该应用程序广泛定义为具有非结构化数据,尤其是图形。与其他机器学习(ML)方式相比,由于源自图类型的不规则性和异质性,图形神经网络(GNN)的加速度更具挑战性。但是,现有的努力主要集中在处理图形的不规则性上,并且没有研究其异质性。为此,我们提出了H-GCN,PL(可编程逻辑)和AIE(AI引擎)的混合加速器,以利用Xilinx Versal自适应计算加速度平台(ACAPS)的新兴异质性(ACAPS)来实现高表现GNN的确定。特别是,H-GCN根据其固有的异质性将每个图分为三个子图,并分别使用PL和AIE处理它们。为了进一步提高性能,我们探索了AIE的稀疏支持,并开发了一种有效的密度感知方法,以自动将稀疏矩阵矩阵乘法(SPMM)的瓷砖自动映射到收缩张量数阵列上。与最先进的GCN加速器相比,H-GCN平均达到1.1〜2.3倍的速度。
translated by 谷歌翻译
对抗贴片是旨在欺骗其他表现良好的基于​​神经网络的计算机视觉模型的图像。尽管这些攻击最初是通过数字方式构想和研究的,但由于图像的原始像素值受到干扰,但最近的工作表明,这些攻击可以成功地转移到物理世界中。可以通过打印补丁并将其添加到新捕获的图像或视频素材的场景中来实现。在这项工作中,我们进一步测试了在更具挑战性的条件下物理世界中对抗斑块攻击的功效。我们考虑通过空中或卫星摄像机获得的高架图像训练的对象检测模型,并测试插入沙漠环境场景中的物理对抗斑块。我们的主要发现是,在这些条件下成功实施对抗贴片攻击要比在先前考虑的条件下更难。这对AI安全具有重要意义,因为可能被夸大了对抗性例子所带来的现实世界威胁。
translated by 谷歌翻译
图表卷积网络(GCNS)已成为最先进的图形学习模型。但是,它可以令人难以置于大图数据集的推断GCNS,这会将其应用于大型实际图表并阻碍更深层更复杂的GCN图形的探讨。这是因为真实世界图可能非常大而稀疏。此外,GCN的节点度倾向于遵循幂律分布,因此具有高度不规则的邻接矩阵,导致数据处理和移动中的禁止低效率,从而显着地限制了可实现的GCN加速效率。为此,本文提出了一种GCN算法和加速器协同设计框架被称为GCOD,其在很大程度上可以缓解上述GCN不规则性并提高GCNS推理效率。具体地,在算法级别上,GCOD集成了分割和征服GCN训练策略,该训练策略将图形偏离在本地邻域中的密集或稀疏,而不会影响模型精度,从而导致(主要)的图形邻接矩阵仅仅是两个级别的工作量并享受大部分增强的规律性,从而轻松加速。在硬件水平上,我们进一步开发了一个具有分离发动机的专用双子加速器,以处理每个上述密集和稀疏工作负载,进一步提高整体利用率和加速效率。广泛的实验和消融研究验证了我们的GCOD始终如一地减少了与CPU,GPU和现有技术GCN加速器相比的15286倍,294倍,7.8倍和2.5倍的加速,包括HYGCN和AWB -GCN分别在保持甚至提高任务准确性的同时。
translated by 谷歌翻译
Learning from changing tasks and sequential experience without forgetting the obtained knowledge is a challenging problem for artificial neural networks. In this work, we focus on two challenging problems in the paradigm of Continual Learning (CL) without involving any old data: (i) the accumulation of catastrophic forgetting caused by the gradually fading knowledge space from which the model learns the previous knowledge; (ii) the uncontrolled tug-of-war dynamics to balance the stability and plasticity during the learning of new tasks. In order to tackle these problems, we present Progressive Learning without Forgetting (PLwF) and a credit assignment regime in the optimizer. PLwF densely introduces model functions from previous tasks to construct a knowledge space such that it contains the most reliable knowledge on each task and the distribution information of different tasks, while credit assignment controls the tug-of-war dynamics by removing gradient conflict through projection. Extensive ablative experiments demonstrate the effectiveness of PLwF and credit assignment. In comparison with other CL methods, we report notably better results even without relying on any raw data.
translated by 谷歌翻译
现有的研究解决场景图生成(SGG) - 图像中场景理解的关键技术 - 从检测角度,即使用边界框检测到对象,然后预测其成对关系。我们认为这种范式引起了几个阻碍该领域进步的问题。例如,当前数据集中的基于框的标签通常包含冗余类,例如头发,并遗漏对上下文理解至关重要的背景信息。在这项工作中,我们介绍了Panoptic场景图生成(PSG),这是一项新的问题任务,要求该模型基于全景分割而不是刚性边界框生成更全面的场景图表示。一个高质量的PSG数据集包含可可和视觉基因组的49k井被宣传的重叠图像,是为社区创建的,以跟踪其进度。为了进行基准测试,我们构建了四个两阶段基线,这些基线是根据SGG中的经典方法修改的,以及两个单阶段基准,称为PSGTR和PSGFORMER,它们基于基于高效的变压器检测器,即detr。虽然PSGTR使用一组查询来直接学习三重态,但PSGFormer以来自两个变压器解码器的查询形式分别模拟对象和关系,然后是一种迅速的关系 - 对象对象匹配机制。最后,我们分享了关于公开挑战和未来方向的见解。
translated by 谷歌翻译
在许多情况下,需要精确的机器人操纵任务(插入,拧紧,精确选择,精确选择)。以前的方法在此类操作任务上实现了良好的性能。但是,这种方法通常需要乏味的校准或昂贵的传感器。 3D/RGB-D摄像机和扭矩/力传感器增加了机器人应用的成本,并且可能并不总是经济的。在这项工作中,我们旨在解决这些问题,但仅使用弱化和低成本的网络摄像头。我们提出了双眼对准学习(BAL),可以自动学习眼手协调和点对准能力以解决这四个任务。我们的工作重点是与未知的眼睛协调合作,并提出了自动执行眼镜校准的不同方法。该算法在模拟中进行了训练,并使用实用管道实现SIM2Real并在真实机器人上进行测试。我们的方法在四个任务上成本最低,取得了竞争性的效果。
translated by 谷歌翻译
近年来,由于机器学习的进步,已经完成了无数关于智能机器人政策的最高级工作。然而,效率低下和缺乏转移能力阻碍了实用应用程序,尤其是在人类机器人协作中,少数快速学习和高灵活性成为一种努力。为了克服这一障碍,我们指的是一个“政策池”,其中包含可以轻松访问和重复使用的预训练技能。通过以灵活的顺序展开必要的技能,采用代理来管理“政策池”,取决于特定于任务的偏爱。可以从一个或几个人类专家示范中自动解释这种偏好。在这个层次结构的环境下,我们的算法能够在迷你招架环境中获得一个稀疏的奖励,多阶段的诀窍,只有一次演示,显示了有可能立即掌握人类教练的复杂机器人技能的潜力。此外,我们算法的先天质量还允许终身学习,使其成为一种多功能的代理。
translated by 谷歌翻译
空间卷积广泛用于许多深度视频模型。它基本上假设了时空不变性,即,使用不同帧中的每个位置的共享权重。这项工作提出了用于视频理解的时间 - 自适应卷积(Tadaconv),这表明沿着时间维度的自适应权重校准是促进在视频中建模复杂的时间动态的有效方法。具体而言,Tadaconv根据其本地和全局时间上下文校准每个帧的卷积权重,使空间卷积具有时间建模能力。与先前的时间建模操作相比,Tadaconv在通过卷积内核上运行而不是特征,其维度是比空间分辨率小的数量级更有效。此外,内核校准还具有增加的模型容量。通过用Tadaconv替换Reset中的空间互联网来构建坦达2D网络,这与多个视频动作识别和定位基准测试的最先进方法相比,导致PAR或更好的性能。我们还表明,作为可忽略的计算开销的容易插入操作,Tadaconv可以有效地改善许多具有令人信服的边距的现有视频模型。 HTTPS://github.com/alibaba-mmai-research/pytorch-video -Undersing提供代码和模型。
translated by 谷歌翻译
对比学习的核心思想是区分不同的实例,并从相同实例中强制不同的视图以共享相同的表示。为了避免琐碎的解决方案,增强在生成不同视图中起重要作用,其中显示了随机裁剪来对模型来学习广义和鲁棒的表示。常用的随机作物操作保持沿着训练过程不变的两个视图之间的分布。在这项工作中,我们表明,自适应地控制沿着训练过程的两个增强视图之间的视差增强了学习的表示的质量。具体而言,我们提出了一种参数立方裁剪操作,用于视频对比度学习,其通过可分辨率的3D仿射变换自动批量3D立方。参数使用对抗目标与视频骨干同时培训,并从数据中学习最佳裁剪策略。可视化表明,参数自适应地控制了两个增强视图之间的中心距离和IOU,并且沿着训练过程的差异中的学习变化是有利于学习强烈的表示。广泛的消融研究证明了所提出的参数对多个对比学习框架和视频骨干的有效性。可以使用代码和模型。
translated by 谷歌翻译